机器生成的语音的特点是其有限或不自然的情绪变化。目前的语音系统文本与扁平情绪,从预定义的集合中选择的情感,从培训数据中的韵律序列中学到的平均变异,或者从源样式转移。我们向语音(TTS)系统提出了文本,其中用户可以从连续和有意义的情感空间(唤醒空间)中选择生成的语音的情绪。所提出的TTS系统可以从任何扬声器风格中的文本产生语音,具有对情绪的精细控制。我们展示该系统在培训期间无知的情感上的工作,并且可以鉴于他/她的演讲样本来扩展到以前看不见的扬声器。我们的作品将最先进的FastSeech2骨干的地平线扩展到多扬声器设置,并为其提供了多令人垂涎的连续(和可解释)的情感控制,而没有任何可观察到的综合演讲的退化。
translated by 谷歌翻译